@ner
2年前 提问
1个回答

大数据分析数据准备前要哪些准备工作

delay
2年前

大数据分析数据准备前要以下准备工作:

  • 噪声数据过滤:主要用于关系型数据属性值缺失严重、数据异常以及文本型数据出现大量乱码的情况,删除这些噪声数据,从而避免影响挖掘结果的准确性。

  • 数据属性值填补:数据属性值填补是一种填补数据中缺失数值的技术,当对应部分时间点相对应的数值缺失,可以通过前后时间点的值进行插值处理,填补缺失值,保证数据的完整性。

  • 属性值归一化:属性值归一化又叫属性值标准化。用于将同一属性不同数据源的表达方式统一到相同的表达方式,度量单位不同的数值统一到相同的度量单位。

  • 数据去重:数据去重是判断数据是否存在重复并去除重复数据的技术。该技术主要用于减少存储、降低网络带宽、提高大数据挖掘效率,从而应对数据体积激增的现状。其关键技术为快速高效与数据量大小无关的去重算法。

  • 数据抽取:数据抽取是利用特定模型,在海量数据中抽取可用数据的过程。该技术用于解决以人工方式预处理海量数据效率低、不能满足实际应用要求的问题。主要技术包括抽取模型和抽取方法的设计。该技术具备分布式的结果集处理、并发的数据操作以及数据之间的高效转换等特征。